Explorer R

Serge-Étienne Parent

15 février 2019

Objectifs spécifiques (1/)

À la fin de ce chapitre, vous

  • serez en mesure d’identifier les sources d’information principales sur le développement de R et de ses modules
  • comprendrez l’importance du prétraitement des données, en particulier dans le cadre de l’analyse de données compositionnelles, et saurez effectuer un prétraitement adéquat

Objectifs spécifiques (2/)

  • saurez comment acquérir des données météo d’Environnement Canada avec le module weathercan
  • saurez identifier les modules d’analyse de sols (soiltexture et aqp)
  • saurez comment débuter un projet de méta-analyse et de déploiement d’un logiciel sur R

Explorer R

Sur le web

Mise en garde

  1. Le module est-il activement développé?
  2. Le module est-il bien testé?
  3. Le module est-il bien documenté?
  4. Le module est-il largement utilisé?
  5. Le module est-il développé par une personne ou une organisation crédible?

R à Québec

R à Québec

Prétraitement

  • Standardisation: moyenne de 0 et écart-type de 1
  • À l’échelle de la plage: pour préserver les zéro
  • Normaliser: chaque vecteur a une longueur (norme) de 1
  • Analyse compositionnelle

Données compositionnelles (1/)

Variables relatives à un tout.

  1. Redondance d’information (D-1 degrés de liberté pour une composition de D parties)

Sachant qu’une journée a 24 heures et que je passe 8 heures au travail, il reste implicitement 16 h hors du travail.

Données compositionnelles (2/)

  1. Dépendance d’échelle: Les stats ne devraient pas dépendre de la notion du “tout”, qui est arbitraire.

Si je segmente la journée en plusieurs tâches au travail et plusieurs tâches hors du travail, les statistiques au travail ne devraient être influencées par le fait que les heures soient exprimées en proportion de mon temps de travail (/8h) ou en proportion de mon temps total (/24h).

Données compositionnelles (3/)

  1. Distribution théorique des données.

Les statistiques ne devraient pas admettre des proportions négatives ou dépassant 1 (ou 100%, ou 24h).

Conséquence des biais méthodologiques (1/)

  1. les régressions, les regroupements et les analyses en composantes principales peuvent avoir peu ou pas de signification
  2. les propriétés des distributions peuvent être générées par l’opération de fermeture de la composition (s’assurer que le total des proportions donne 100%)

Conséquence des biais méthodologiques (2/)

  1. les résultats d’analyses discriminantes linéaires sont propices à être illusoires
  2. tous les coefficients de corrélation seront affectés à des degrés inconnus
  3. les résultats des tests d’hypothèses seront intrinsèquement faussés

Prétraitement

\[alr_j = log \left( \frac{x_j}{x_{ref}} \right)\] \[ clr_i = log \left( \frac{x_i}{g \left( x \right)} \right) \] \[ ilr_j = \sqrt{\frac{n_j^+ n_j^-}{n_j^+ + n_j^-}} log \left( \frac{g \left( c_j^+ \right)}{g \left( c_j^+ \right)} \right) \]

CoDa

Diagramme ternaire

ILR

Nommer les balances

[Argile | Limon,Sable], [Limon | Sable]

La SBP

Météo (1/)

Rechercher une station par coordonnées

## # A tibble: 4 x 14
##   prov  station_name station_id climate_id WMO_id TC_id   lat   lon  elev
##   <fct> <chr>        <fct>      <fct>      <fct>  <fct> <dbl> <dbl> <dbl>
## 1 QC    LENNOXVILLE  5397       7024280    71611  WQH    45.4 -71.8  181 
## 2 QC    SHERBROOKE   48371      7028123    71610  YSC    45.4 -71.7  241.
## 3 QC    SHERBROOKE A 5530       7028124    71610  YSC    45.4 -71.7  241.
## 4 QC    SHERBROOKE A 30171      7028126    <NA>   GSC    45.4 -71.7  241.
## # … with 5 more variables: tz <chr>, interval <chr>, start <int>,
## #   end <int>, distance <dbl>

Météo (2/)

Pédométrie

  • soiltexture
  • aqp

soiltexture (1/)

## png 
##   2

soiltexture (2/)

soiltexture (3/)

##  [1] "ALi" "ALi" "L"   "L"   "ALo" "LS"  "ALo" "A"   "LLi" "LSA"

aqp (1/)

aqp (2/)

Méta-analyses (1/)

## Loading 'meta' package (version 4.9-4).
## Type 'help(meta)' for a brief overview.
## Parsed with column specification:
## cols(
##   author = col_character(),
##   Ne = col_double(),
##   Me = col_double(),
##   Se = col_double(),
##   Nc = col_double(),
##   Mc = col_double(),
##   Sc = col_double()
## )

Méta-analyse (2/)

##        SMD             95%-CI %W(fixed) %W(random)
## 1  -0.5990 [-1.3300;  0.1320]       3.5        5.7
## 2  -0.9518 [-1.6770; -0.2266]       3.6        5.7
## 3  -0.5909 [-1.6301;  0.4483]       1.7        4.1
## 4  -0.7064 [-1.7986;  0.3858]       1.6        3.9
## 5  -0.2815 [-0.6076;  0.0445]      17.6        8.1
## 6  -0.5375 [-1.0816;  0.0065]       6.3        6.8
## 7  -1.3204 [-2.1896; -0.4513]       2.5        4.9
## 8  -0.4800 [-1.3514;  0.3914]       2.5        4.9
## 9   0.0918 [-0.2549;  0.4385]      15.6        8.0
## 10 -3.2433 [-4.2035; -2.2831]       2.0        4.5
## 11  0.0000 [-0.7427;  0.7427]       3.4        5.6
## 12 -0.7061 [-1.2020; -0.2102]       7.6        7.1
## 13 -0.4724 [-1.2537;  0.3089]       3.1        5.4
## 14 -0.1849 [-0.5071;  0.1373]      18.0        8.2
## 15 -0.0265 [-0.6045;  0.5515]       5.6        6.6
## 16 -1.1648 [-2.0828; -0.2468]       2.2        4.7
## 17 -0.2127 [-0.9651;  0.5397]       3.3        5.6
## 
## Number of studies combined: k = 17
## 
##                          SMD             95%-CI     z  p-value
## Fixed effect model   -0.3915 [-0.5283; -0.2548] -5.61 < 0.0001
## Random effects model -0.5858 [-0.8703; -0.3013] -4.04 < 0.0001
## 
## Quantifying heterogeneity:
## tau^2 = 0.2309; H = 1.91 [1.50; 2.43]; I^2 = 72.5% [55.4%; 83.1%]
## 
## Test of heterogeneity:
##      Q d.f.  p-value
##  58.27   16 < 0.0001
## 
## Details on meta-analytical method:
## - Inverse variance method
## - DerSimonian-Laird estimator for tau^2
## - Hedges' g (bias corrected standardised mean difference)

Méta-analyses (3/)

Créer des applications avec R

L’entreprise RStudio a créé shiny pour permettre le développement d’applications R.

https://essicolo.shinyapps.io/Mitscherlich/

Objectifs spécifiques (1/)

À la fin de ce chapitre, vous

  • serez en mesure d’identifier les sources d’information principales sur le développement de R et de ses modules
  • comprendrez l’importance du prétraitement des données, en particulier dans le cadre de l’analyse de données compositionnelles, et saurez effectuer un prétraitement adéquat

Objectifs spécifiques (2/)

  • saurez comment acquérir des données météo d’Environnement Canada avec le module weathercan
  • saurez identifier les modules d’analyse de sols (soiltexture et aqp)
  • saurez comment débuter un projet de méta-analyse et de déploiement d’un logiciel sur R